4. L’utilizzo del software
 
 
Il capitolo descrive in modo dettagliato l’utilizzo dell'interfaccia del software CONCORD. I paragrafi aiutano l’utente ad utilizzare la schermata principale e le varie funzioni del software.

 

4.1. La schermata principale

Il software viene attivato tramite l’icona del programma presente nella cartella c:\concord dopo aver effettuato l'installazione (vedi § 2.2).
 


Con l’avvio della procedura, si apre la schermata principale (vedi fig. 4.1).

Figura 4.1 - La schermata principale

Nella schermata principale viene presentato un menubar, in cui compaiono le seguenti voci:

4.2. Uso della schermata principale - il progetto

Una delle prime scelte possibili, una volta attivato CONCORD, è il "progetto". Con questa scelta possiamo uscire dal software oppure scegliere tra una nuova elaborazione o una elaborazione precedentemente effettuata. Per "progetto" in CONCORD si intende il nome della cartella nella quale risiedono tutti i file e dataset generati dalle varie funzioni, e che è anche il nome con il quale viene assegnata la libreria SAS al momento dell'esecuzione.


Figura 4.2 - Il Progetto

Dal menu Progetto con "Nuovo", sempre attivo, si definisce un nuovo progetto scegliendo una cartella (directory), che può essere creata utilizzando l'apposito simbolo    dopo aver selezionato il percorso.

Il nome della nuova cartella deve rispettare la sintassi dei nomi di libreria SAS e cioè al massimo otto caratteri di cui il primo alfabetico e senza caratteri speciali (es. redditi, forzelav, ecc.). Scelto il nome del progetto si deve scegliere il tipo di correzione e, a conferma avvenuta, viene assegnato il progetto come libreria al SAS, scritto un record di progetto nel dataset "metadati" nella cartella "c:\concord", e registrati nella cartella di progetto tutti i dataset e i file necessari all'esecuzione dei vari programmi del sistema. Il nome del progetto scelto sarà mostrato nel titolo di tutte le maschere principali.

Con "Apri", attivo solo se precedentemente è stato elaborato un progetto, cioè se esiste almeno una osservazione nel dataset "metadati" nella cartella "c:\concord", si sceglie un progetto tra quelli che vengono mostrati, corrispondente a una cartella (directory). E' possibile rimuovere un progetto, dopo averlo scelto, cliccando sul tasto con il simbolo di cancellazione a fianco del nome del progetto e, dopo conferma, il nome del progetto viene eliminato dal dataset "metadati" e da "history" lasciando inalterato il contenuto della cartella relativa.

Con "Chiudi", attivo quando un progetto è stato scelto, si chiude il progetto in corso e si aggiorna automaticamente il record corrispondente nel dataset "metadati".
In una stessa cartella, e quindi nello stesso progetto, possono coesistere i vari tipi di correzione: probabilistica, deterministica o tramite donatore.

Si può passare da un tipo all'altro di correzione chiudendo e riaprendo il progetto con lo stesso nome e scegliendo il tipo di correzione opportuno.

Dopo avere scelto il progetto è necessario impostare il tipo di correzione che si vuole effettuare sui dati scegliendo uno dei tre approcci possibili:


Figura 4.3 - La scelta del Progetto
 
 

4.3. La scelta del tipo di correzione

La definizione, lo sviluppo e la messa a punto di una procedura automatica per il controllo e la correzione dei dati dovrebbero essere finalizzati a far sì che questa

Tra i primi due approcci sopraindicati, è quello probabilistico l'unico in grado di assicurare questo tipo di risultato, almeno in una tipologia in cui gli errori presenti nei dati siano di carattere stocastico, o quantomeno la componente sistematica negli errori sia trascurabile. Se ciò non avviene, se cioè gli errori sistematici sono presenti in quantità tale da non poter essere considerati trascurabili, deve essere introdotta una specifica componente deterministica nella procedura, dato che è dimostrato che l'approccio probabilistico non è adatto al trattamento di tali errori, ma anzi è suscettibile di introdurre ulteriori distorsioni nei dati.

La soluzione ottimale dovrebbe prevedere il trattamento congiunto in un unico passo di entrambe le tipologie di errore. Nella pratica questo non è possibile, non disponendosi ancora di implementazioni degli opportuni algoritmi. In fase di disegno della procedura complessiva occorre quindi:

In prospettiva, qualora si possa intervenire sul processo di raccolta e registrazione dei dati, e si abbia, quindi, la possibilità di rimuovere le cause che producono gli errori sistematici, occorre procedere in tal senso, al fine di minimizzare e, al limite, eliminare il ricorso a passi di tipo deterministico, sempre suscettibili di introdurre distorsioni addizionali nei dati.

Tutto ciò implica che la fase di messa a punto delle procedure non è finalizzata solo ad una ottimizzazione della procedura probabilistica ideata nella fase di disegno (verifica della completezza e correttezza del piano di compatibilità), ma anche all'individuazione della componente sistematica degli errori (per lo sviluppo di passi deterministici), ed alla identificazione delle cause di tali errori (per la loro rimozione dal processo produttivo).

Il software CONCORD (CONtrollo e CORrezione dei Dati) permette di applicare integralmente la metodologia, almeno nel caso di variabili categoriche.
Nel software sono infatti disponibili le funzioni di tre diversi moduli, sviluppati a suo tempo indipendentemente presso l’ISTAT:

Nella metodologia proposta, scegliendo in CONCORD l'approccio probabilistico, è possibile effettuare le operazioni di definizione ed esecuzione del passo probabilistico della procedura complessiva di controllo e correzione, ossia delle funzioni di SCIA.

Il passo di definizione prevede:

Il passo di esecuzione prevede l’applicazione dell’insieme completo di edit, così ottenuto, all’insieme dei dati da trattare. Ciò produce un insieme di statistiche (record esatti e record errati; distribuzione degli edit per frequenza di attivazione; variabili per frequenza di imputazione) il cui esame da parte dello statistico, tramite le funzioni di analisi dei risultati, permette l’individuazione di eventuali errori sistematici.
Qualora questi esistano, l’utilizzazione congiunta dell'approccio deterministico e delle correzioni tramite donatore, ossia delle funzioni di GRANADA e RIDA, permette di effettuare le operazioni di definizione ed esecuzione del passo deterministico.

Le funzioni di GRANADA permettono di definire le regole di tipo SE-ALLORA già introdotte. Tenendo conto che la parte SE di tali regole esprime la stessa condizione di errore definita in un corrispondente edit del passo probabilistico, CONCORD dà la possibilità di importare tutte le regole già definite mediante l'approccio probabilistico , inizializzando in tal modo il modulo deterministico. L’utente non dovrà far altro che scegliere quali regole mantenere, e per queste indicarne la parte ALLORA, che corrisponde alla localizzazione deterministica dell’errore.

A questo punto, applicando le regole così definite, è possibile bipartire l’insieme iniziale dei dati in due sottoinsiemi, quello dei dati esatti e quello dei dati contenenti errori.
Le funzioni dell'approccio deterministico consentirebbero anche di imputare direttamente le variabili giudicate errate, indicando il valore puntuale da assegnare; da un punto di vista statistico quest’operazione è però da evitare, o quantomeno da ridurre al minimo, in quanto può comportare rilevanti distorsioni delle distribuzioni originali. Sarebbe bene quindi utilizzare questa funzione solo per l'impostazione di caratteri di controllo nelle variabili giudicate errate, caratteri che verranno utilizzati dalle funzioni del donatore per riconoscere i valori da imputare.

Mediante le funzioni di correzione tramite donatore, identiche alle funzioni di RIDA, la correzione si esegue prelevando i nuovi valori da un record corretto simile al record errato (Abbate 1996). La similitudine si calcola utilizzando alcune variabili, dette di "match", scelte sulla base della loro correlazione con la variabile da correggere.

Questo metodo presuppone che le variabili utilizzate per calcolare la distanza fra record errato e donatore siano corrette. Per la ricerca del donatore si procede a confrontare il record errato con tutti i record esatti, scegliendo quello con distanza minima. Le variabili, utilizzate per individuare la similitudine fra i record, si distinguono in variabili di strato e variabili di match. Le variabili di strato si utilizzano per limitare la ricerca all’interno di sottoinsiemi di record che presentano uguali valori di tali variabili. Le variabili di match si utilizzano per calcolare la funzione di distanza mista per tutti i record dello strato. Il donatore prescelto è quello più vicino al record errato, cioè quello con distanza minima.